iT邦幫忙

2023 iThome 鐵人賽

DAY 14
0
AI & Data

圍繞 AI & Data 的主題系列 第 14

[Day 14] 異常檢測 (Anomaly Detection)

  • 分享至 

  • xImage
  •  

Hello 大家好!歡迎回來!昨天剛剛分享完時間序列分析 (Time Series Analysis),那今天我打算跟大家分享異常檢測 (Anomaly Detection)。事不宜遲,現在開始!

簡介

異常偵測是一種技術,用於識別數據集中與預期行為顯著偏離的模式或數據點。它在各個領域中扮演著重要的角色,如資訊安全、詐騙偵測、網絡監控和工業品質控制。異常偵測專注於識別數據集中的異常或不尋常觀察值。它涉及區分正常行為和異常行為,這可能暗示著潛在的問題、風險或機遇。

方法

  • 統計方法
    統計方法涉及對數據的正常行為進行建模,並識別與預期統計特性顯著偏離的觀察值。可以使用 z-score、高斯分佈建模或假設檢驗等技術來實現。
  • 機器學習方法
    機器學習算法可以訓練以學習數據中的模式和關係,並將觀察值分類為正常或異常。在擁有標記數據的情況下,可以使用監督學習算法,如支持向量機 (SVM) 和隨機森林 (對又是這兩個)。對於未標記的數據,可以使用聚類和自編碼器等非監督學習算法來檢測異常。
  • 時間序列分析
    時間序列數據通常包含有關異常的寶貴信息。可以使用分解、移動平均和季節性分解等技術來檢測時間序列數據中的異常。
  • 深度學習方法
    深度學習模型,如循環神經網絡 (RNN) 和長短期記憶 (LSTM) 網絡,在異常偵測任務中表現出色。這些模型可以學習數據中的複雜模式和依賴關係,因此在檢測異常方面非常有效。

模型分類

  1. labeled
    訓練集中每個樣本都有標籤,可用來訓練一個分類器,這個分類器除了能夠識別已知的樣本外,還能輸出 “unknown” 標籤,用來表示該輸入是 “沒見過的”。也叫做 “open-set recognition (開放式識別)”。
  2. unlabeled
    a) clean: 資料集是 “乾淨” 的,所有的樣本都視為 “正樣本”。
    b) polluted: 現實乾淨的數據集很少,多少都參雜著 “異常樣本”,往往這些數據裡可能有異常的數據且沒有標註出來。
    https://ithelp.ithome.com.tw/upload/images/20230928/20163226qgeDV0bTLf.png [1]

應用

  • 資訊安全
    異常偵測有助於識別惡意活動、入侵或不尋常的網絡行為,這可能表示一次安全漏洞或網絡攻擊。
  • 詐騙偵測
    異常偵測廣泛應用於金融機構,用於檢測與正常模式明顯偏離的欺詐交易或活動。
  • 工業品質控制
    異常偵測應用於製造業,用於監控生產過程,識別有缺陷的產品或設備故障。
  • etc...

好處

  • 早期偵測
    異常偵測能夠及早識別不尋常的模式或行為,使得及時干預和減輕潛在的風險或威脅成為可能。
  • 提升安全性
    通過檢測資訊安全系統中的異常,異常偵測有助於防止數據洩露、入侵和其他惡意活動。
  • 節省成本
    工業領域中的異常偵測可以通過在造成重大損害或中斷之前識別出有缺陷的設備或流程,從而節省成本。
  • 增強決策能力
    異常偵測提供寶貴的洞察和警報,使得能夠進行明智的決策和采取主動措施來應對異常。

參考資料

我是 Mr. cobble,明天見!


上一篇
[Day 13] 時間序列分析 (Time Series Analysis)
下一篇
[Day 15] 文本分類 (Text Classification)
系列文
圍繞 AI & Data 的主題30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言